Метод хранения векторных представлений в сжатом виде с применением кластеризации
Аннотация:
Введение. Алгоритмы машинного обучения для информационного поиска позволяют представить текстовые и мультимодальные документы в виде векторов. Такие векторные представления (embeddings) сохраняют семантическое содержание документов и сводят задачу поиска к задаче определения расстояния между векторами. Сжатие векторных представлений позволяет уменьшить объем памяти, занимаемый ими, и повысить эффективность вычислений. В работе рассмотрены существующие способы сжатия векторных представлений без потери и с потерей точности. Предложен метод уменьшения ошибки путем кластеризации векторных представлений при использовании сжатия с потерей точности. Метод. Сущность метода состоит в предварительной кластеризации векторных представлений, сохранении центров каждого кластера и значений координат каждого векторного представления относительно центра его кластера. Центры каждого кластера сжимаются без потери точности, а получившиеся смещенные векторные представления с потерей точности. Основные результаты. Предложенный метод протестирован на наборах данных fashion-mnist-784- euclidean и NYT-256-angular. Проведено сравнение векторных представлений, сжатых с потерей точности при помощи уменьшения разрядности, с векторными представлениями, сжатыми по предложенному методу. При незначительном, около 10 %, увеличении размера сжатых данных средняя абсолютная величина ошибки от потери точности для наборов fashion-mnist-784-euclidean и NYT-256-angular снизилась в четыре и примерно в два раза соответственно. Обсуждение. Разработанный метод может быть применен для решения задач хранения и обработки векторных представлений мультимодальных документов, например, при разработке поисковых систем.
Ключевые слова:
Постоянный URL
Статьи в номере
- Структурные и спектральные свойства нанокристаллических порошков АИГ:Nd, АИГ:Ce и АИГ:Yb, синтезированных модифицированным методом Печини
- Расчетное прогнозирование в задаче идентификации стереоизображений
- Сравнение результатов применения двух спекловых методов изучения многоцикловой усталости конструкционной стали
- Лазерно-индуцированное тепловое воздействие на электрические характеристики фоточувствительных пленок селенида свинца
- Алгоритм распознавания омографов на основе евклидовой метрики
- Улучшенная производительность модели RetinaNet для обнаружения огнестрельного оружия в пользовательском наборе данных и видеонаблюдения в реальном времени
- Решение задачи предварительного разбиения разнородных данных на классы в условиях ограниченного объема
- Исправление одиночных пакетов ошибок за пределами корректирующей способности кода с использованием информационных совокупностей
- Новый стратегический траекторно-базированный протокол для повышенияэффективности беспроводных сенсорных сетей
- Автоматизация распознавания сложной текстовой CAPTCHA с применением условной генеративно-состязательной нейронной сети
- Основанное на особом интересе прогнозирование протоонкогена и обнаружение возможностей его мутации в онкоген на основе первоначального анализа последовательности аминокислот
- Использование монокулярной оптики при оценке глубины объектов для двумерного картирования моделируемой среды
- Сегментация мышечной ткани на снимках компьютерной томографии на уровне позвонка L3
- Обеспечение режимов функционирования кориолисовых вибрационных гироскопов с низкодобротными резонаторами
- Сбор и обработка экологической информации в районах нефтегазодобычи и решение других прикладных задач методами активного поиска (обзорная статья)
- Использование технологий машинного обучения при решении задачи классификации сигналов мониторинга инфразвукового фона
- Исследование влияния формы выходного торца оптического волокна на гидроакустические процессы в жидкости, стимулируемые микросекундными импульсами излучения Yb,Er:Glass-лазера